Vit'teki CLS tokenı nedir?
CLS token kavramını Vision Transformer (ViT) bağlamında anlamaya çalışıyorum. Birisi amacını ve genel mimariye nasıl uyduğunu açıklayabilir mi?
CLS tokenı ne işe yarar?
CLS tokeninin amacını merak ediyorum. Doğal dil işlemeyle ilgili bazı bağlamlarda bununla karşılaştım, ancak özel olarak ne için kullanıldığından emin değilim.
CLS token havuzu nedir?
CLS token havuzu oluşturma, Vision Transformer (ViT) modellerinde kullanılan ve giriş dizisine özel bir sınıflandırma tokeninin (CLS token) eklendiği bir stratejidir. Bu belirtecin çıktı temsili daha sonra son sınıflandırma görevi için kullanılır ve görüntünün genel bir özellik temsilini sağlamak için tüm yamalardan gelen bilgiler toplanır.